Národní úložiště šedé literatury Nalezeno 8 záznamů.  Hledání trvalo 0.01 vteřin. 
Detekce lidské řeči v audio nahrávce
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.
Detekce hlasové aktivity
Mitáček, Štěpán ; Pfeifer, Václav (oponent) ; Míča, Ivan (vedoucí práce)
Tato práce se zabývá porovnáváním různých metod detekce řeči z různých zvukových nahrávek. Při porovnávání posuzuje jak výšku nastaveného prahu při rozhodování, tak velikost jednotlivých segmentů, na které se zvuková nahrávka rozloží. Detekce jednotli- vých nahrávek se může lišit v různých řečnících, tak i zda se v nahrávce vyskytuje ruch nebo ne. Závěrem by mělo být porovnání, která z odskoušených metod je nejpřesnější.
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (oponent) ; Švec, Ján (vedoucí práce)
This work aims to implement, test, and evaluate a speaker-conditioned Voice Activity Detection (VAD) method called Personal VAD. The method builds upon an LSTM-based approach to VAD and its purpose is to introduce a system that can reliably detect speech of a target speaker, while retaining the typical characteristics of a VAD system, mainly in terms of small model size, low latency, and low necessary computational resources. The system is trained to distinguish between three classes: non-speech, target speaker speech, and non-target speaker speech. For this purpose, the method utilizes speaker embeddings as a part of the input feature vector to represent the target speaker. Some of the more heavyweight personal VAD variants also make use of speaker verification scores issued to each frame based on the target embedding, resulting in a more robust system. In addition to the one scoring method presented in the original article, two other scoring approaches are introduced, both outperforming the baseline method and improving the performance even for acoustically challenging conditions.
Akustická detekce pozice řečníka pomocí mikrofonního pole
Horázný, František ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá problematikou určení přibližné polohy zdroje zvuku v souřadném systému pomocí mikrofonního pole. Zabývá se všemi vlivy na určení polohy pomocí audio signálů. Vysvětluje základní principy metod, které jsou využity pro detekci zdroje zvuku. Je zde uveden návrh řešení pro synchronizované statické nahrávky a dále úprava pro běh v reálném čase na sestavě systému ARM/SHARC, která má omezený výkon. Součástí řešení je také testování jednotlivých komponent a jejich parametrů. Znázorňuje vliv změn těchto parametrů na chování systému. Současně jsou popsány experimenty s výslednou aplikací ukazující změnu výsledků při výpočtu bez výkonnostního omezení a při běhu na zvukové kartě. Na závěr jsou uvedena doporučení a předpoklady jak docílit lepších výsledků při využívání programu a jak eliminovat omezení systému za nepříznivých podmínek.
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (oponent) ; Švec, Ján (vedoucí práce)
This work aims to implement, test, and evaluate a speaker-conditioned Voice Activity Detection (VAD) method called Personal VAD. The method builds upon an LSTM-based approach to VAD and its purpose is to introduce a system that can reliably detect speech of a target speaker, while retaining the typical characteristics of a VAD system, mainly in terms of small model size, low latency, and low necessary computational resources. The system is trained to distinguish between three classes: non-speech, target speaker speech, and non-target speaker speech. For this purpose, the method utilizes speaker embeddings as a part of the input feature vector to represent the target speaker. Some of the more heavyweight personal VAD variants also make use of speaker verification scores issued to each frame based on the target embedding, resulting in a more robust system. In addition to the one scoring method presented in the original article, two other scoring approaches are introduced, both outperforming the baseline method and improving the performance even for acoustically challenging conditions.
Akustická detekce pozice řečníka pomocí mikrofonního pole
Horázný, František ; Mošner, Ladislav (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce se zabývá problematikou určení přibližné polohy zdroje zvuku v souřadném systému pomocí mikrofonního pole. Zabývá se všemi vlivy na určení polohy pomocí audio signálů. Vysvětluje základní principy metod, které jsou využity pro detekci zdroje zvuku. Je zde uveden návrh řešení pro synchronizované statické nahrávky a dále úprava pro běh v reálném čase na sestavě systému ARM/SHARC, která má omezený výkon. Součástí řešení je také testování jednotlivých komponent a jejich parametrů. Znázorňuje vliv změn těchto parametrů na chování systému. Současně jsou popsány experimenty s výslednou aplikací ukazující změnu výsledků při výpočtu bez výkonnostního omezení a při běhu na zvukové kartě. Na závěr jsou uvedena doporučení a předpoklady jak docílit lepších výsledků při využívání programu a jak eliminovat omezení systému za nepříznivých podmínek.
Detekce lidské řeči v audio nahrávce
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.
Detekce hlasové aktivity
Mitáček, Štěpán ; Pfeifer, Václav (oponent) ; Míča, Ivan (vedoucí práce)
Tato práce se zabývá porovnáváním různých metod detekce řeči z různých zvukových nahrávek. Při porovnávání posuzuje jak výšku nastaveného prahu při rozhodování, tak velikost jednotlivých segmentů, na které se zvuková nahrávka rozloží. Detekce jednotli- vých nahrávek se může lišit v různých řečnících, tak i zda se v nahrávce vyskytuje ruch nebo ne. Závěrem by mělo být porovnání, která z odskoušených metod je nejpřesnější.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.